Instinct MI355X supera el millón de tokens por segundo en MLPerf

AMD ha demostrado el potencial de su arquitectura CDNA 4 durante las pruebas de MLPerf Inference 6.0. Por primera vez, una solución de AMD ha superado la impresionante marca de un millón de tokens por segundo con una aceleradora AMD Instinct MI355X.

Instinct MI355X supera el millón de tokens por segundo en MLPerf 6.0

Este logro se alcanzó utilizando un clúster multinodo equipado con GPUs MI355X para procesar modelos de lenguaje de gran escala (LLM), como Llama 2 de 70 mil millones de parámetros. En configuraciones de 12 nodos, el sistema entregó exactamente 1.031.070 tokens por segundo en el escenario Offline.

Lo más destacable no es solo esta cifra, sino la eficiencia del escalado. AMD reportó una eficiencia superior al 92%, lo que significa que el rendimiento aumenta de manera casi lineal a medida que se añaden más nodos, una característica que es esencial para las empresas que despliegan servicios de IA generativa a gran escala.

Te recomendamos nuestra guía sobre las mejores tarjetas gráficas del mercado

CDNA 4 y HBM3E

Este rendimiento es posible gracias a la cuarta arquitectura CDNA. La aceleradora Instinct MI355X está equipada con una capacidad de memoria de 288 GB de HBM3E, ofreciendo un ancho de banda de hasta 8 TB/s. Además, la GPU introduce soporte para nuevos tipos de datos de baja precisión, como MXFP4 y MXFP6, que permiten triplicar el rendimiento en comparación con la generación anterior (MI325X) manteniendo la precisión necesaria para la inferencia de la IA.

Con estos resultados, AMD no solo demuestra que su hardware es competitivo, sino que su ecosistema de software ROCm ha madurado lo suficiente como para poder trabajar eficientemente con distintos nodos al unísono y escalar el rendimiento como debería. Os mantendremos informados.

Fuente